分子遺伝学とは~5コマの概観
全5回
11月20日 メンデル遺伝学から分子遺伝学へ1 11月27日 同2 12月 4日 生命の起源と進化(と分子系統学) 12月11日 (分子系統学と)遺伝子多型 1月 8日 疾患の分子遺伝学
遺伝と生殖は密接な関係ですが、それに触れる時間はないですから…
受精・妊娠・卵割・胚・発生については、「保健・性教育」の授業をきちんと受けていない履修者は、以下の二つのURLの内容を確認しておいてください。「精子 精液 トリビア」「卵子 排卵 不妊」などの検索語も有効です。医学科では、発生学、産科学などで「専門的」に学ぶ内容ですが、一般常識として、来週までに確認しておく。
遺伝に関わることを表すのに、2つの異なる言葉
Heredity
Heredityに関する諺
遺伝諺
「親子」関係にあるときに「表現型」が「似る」
「進化上の祖先種」と「進化して生じた新種」
親子いろいろ
形質 Trait
表現型 Phenotype
"Heredity is the passing on of traits from parents to their offspring, either through asexual reproduction or sexual reproduction; the offspring cells or organisms acquire the genetic information of their parents. " -- Wikipedia
Gene
親子関係があると、「何かが似る」
受精
Wikibook「分子生物学」
表現型を決める、表現型に影響する
では、体細胞分裂・分化の場合は?
“Information is that which informs. In other words, it is the answer to a question of some kind. It is thus related to data and knowledge, as data represents values attributed to parameters, and knowledge signifies understanding of real things or abstract concepts.” – Wikipedia
遺伝子とは、親と子の表現型が似るという現象であるHeredityをもたらす、情報を運ぶ物理的実在のことである。その情報は1次元線状構造を持つDNA高分子が持つ4つの塩基の配列として情報が記録されていると考えられている。
その情報は、要素に分けることができ、情報要素は塩基配列上の特定の位置に集まっていることから、遺伝子をDNA分子の特定の領域のこととみなすこともあり、遺伝子座位と呼んだりする。
有性生殖・無性生殖
http://www.max.hi-ho.ne.jp/lylle/seishoku1.html
ハプロイド・ディプロイド
http://www.seibutsushi.net/blog/2007/07/241.html
ハプロイド・ディプロイド
ホモとヘテロ
アリル・ハプロタイプ
常染色体性
X染色体性
個人は\(X \in {0,1,2}\)(ジェノタイプ) のいずれかの値をとる。
個人は\(Y \in {0,1}\)(フェノタイプ)のいずれかの値をとる。
\(X\)と\(Y\)とには関係がある。
打点すると以下のようになる
X <- c(0,1,2)
Y <- c(0,1,1)
plot(X,Y,pch=20,cex=3,xlab="X: Genotype",ylab="Y: Phenotype")
ジェノタイプとフェノタイプとの関係に関数を設定すると、することが出来るだろう。
たとえば:
\[ Y = \frac{e^{a (X-b)}}{e^{a(X-b)} + 1} \]
この関数では、\(\lim_{X\to - \infty} Y(X) = 0\), \(\lim_{X \to \infty} Y(X) = 1\)である。
\(b\)は、\(Y=0.5\)となる\(X\)の値。
\(a\)は、曲線の傾きを定める値。
plot(X,Y,pch=20,cex=3,xlab="X: Genotype",ylab="Y: Phenotype")
x <- seq(from=-0.5,to=2.5,length=10000)
a <- 100
b <- 0.5
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l")
a <- 10
b <- 0.5
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l",col=2)
a <- 100
b <- 0.7
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l",col=3)
\[ Y = \frac{e^{a (X-b)}}{e^{a(X-b)} + 1} \] 上式のa,b にどのような値を設定すればよいだろうか?
\(Y \in \{0,1\}\)の値は表現型であると考えた。
別の見方をして、2つの表現型のうち、片方を発現する確率とみなすことも出来る。
その場合、ジェノタイプが0,1,2の場合に、フェノタイプ1を発現する確率が、0,1,1である場合が優性遺伝形式、0,0,1の場合が劣性遺伝形式であることになる。
写像としての遺伝形式
一般化して、ジェノタイプごとの発現確率を\(P(X=0),P(X=1),P(X=2)\)とすれば(下図ではr,q,p)、
優性遺伝形式において、\(P(X=1))\), \(P(X=1)\)という値に意味を持たせることが出来る。
他方、\(P(X=0)\)は、
### 家系図
常染色体優性遺伝形式の形質があり、ジェノタイプを\(\{g_0,g_1,g_2\}\)、フェノタイプを\(\{p_0,p_1\}\)とする。\(p_1\)を着目フェノタイプとする。\(g_0\)でのフェノコピー率をu、\(g_1,g_2\)での浸透率は等しく、vであるとする。ジェノタイプが\(g_i\)、フェノタイプが\(p_j\) であるような個人の人数を\(n_{ij}\)とする。
上記の仮定の下で\(N=\{n_{0,0},n_{0,1},...,n_{2,1}\}\)が観察される確率は
\[ Pr(N|u,v) = \begin{pmatrix} n_{0,0}+n_{0,1} \\ n_{0,1} \end{pmatrix} u^{n_{0,1}}(1-u)^{n_{0,0}} \begin{pmatrix} n_{1,0}+n_{1,1} \\ n_{1,1} \end{pmatrix} v^{n_{1,1}}(1-v)^{n_{1,0}} \begin{pmatrix} n_{2,0}+n_{2,1} \\ n_{2,1} \end{pmatrix} v^{n_{2,1}}(1-v)^{n_{2,0}} \]
\[ Pr(N|u,v) = \frac{(n_{0,0}+n_{0,1})!(n_{1,0}+n_{1,1})!(n_{2,0}+n_{2,1})!}{\prod n_{ij}!}u^{n_{0,1}}(1-u)^{n_{0,0}} v^{n_{1,1}+n_{2,1}}(1-v)^{n_{1,0}+n_{2,0}} \] この関数を、u,v(と常染色体性優性遺伝形式と)で表現された確率モデルにおける、観察Nの確率分布関数と呼ぶ。
一方、少し書き換えて \[ L(u,v|N) = \frac{(n_{0,0}+n_{0,1})!(n_{1,0}+n_{1,1})!(n_{2,0}+n_{2,1})!}{\prod n_{ij}!}u^{n_{0,1}}(1-u)^{n_{0,0}} v^{n_{1,1}+n_{2,1}}(1-v)^{n_{1,0}+n_{2,0}} \] としたものを、観察Nの下での、モデルの尤度関数と言う。
この尤度関数を最大にするような、u,vを求めるには、\(L(u,v|N)\)を微分して \[ \frac{\partial L(u,v|N)}{\partial u} = 0\\ \frac{\partial L(u,v|N)}{\partial v} = 0 \] となるようなu,vを求めればよい。
より簡単には、\(LL(u,v|N)=\log{L(N|u,v)}\)の最大値を求めてもよい。
\[ LL(u,v|N) = C + n_{0,1}\log{u} + n_{0,0}\log{(1-u)} + (n_{1,1}+n_{2,1})\log{v} + (n_{1,0}+n_{2,0})\log{(1-v)} \]
\[ \frac{\partial LL}{\partial u} = n_{0,1}\frac{1}{u} - n_{0,0} \frac{1}{1-u}=0\\ \frac{\partial LL}{\partial v} = (n_{1,1}+n_{2,1})\frac{1}{v} - (n_{1,0}+n_{2,0}) \frac{1}{1-v}=0 \]
\[ u = \frac{n_{0,1}}{n_{0,0}+n_{0,1}}\\ v = \frac{n_{1,1}+n_{1,2}}{n_{1,0}+n_{1,1}+n_{2,0}+n_{2,1}} \]
つまらない結論?
標本の「発現割合」は、「尤度を最大にする発現率の推定値=最尤推定値」
遺伝形式・浸透率・フェノコピーが不明なとき、複数のモデルにて推定を行い、どちらが尤もらしいかを推定する
4塩基 A,T,G,C ### 遺伝子座位
遺伝子座位
遺伝子発現
転写と翻訳
スプライシング
コドン表
翻訳後修飾
\[ Genome !\ne \sum_i geneLocus_i \]
ゲノム・アプローチとは、局在する遺伝子座位の和で説明できない、遺伝情報を読み解こうとする態度
染色体テリトリーとトポロジカルドメイン
オミクス層構造
クロマチン
ヘテロクロマチン・ユークロマチン
RNApolymeraseのアクセス
エピゲノム
ヒストン修飾
「エピゲノム」は、「各所」の「エピジェネティクス」を単なる和ではなく、「全体」で考えあること
iPSリプログラミング
DNA methylation pattern of the paternal H19/IGF2 DMR in hybrid fibroblasts (somatic cell) and induced pluripotent stem (iPS) cells. Front. Genet., 25 February 2015 | https://doi.org/10.3389/fgene.2015.00058
スプライシングバリアント
大部分の遺伝子で認められる
スプライシングバリアント
スプライシングバリアント2
20000遺伝子の発現量を同時測定
ヒートマップ
ノンコーディングRNA
2ハプロイドセットの塩基一致割合 99.6 %
https://publications.nigms.nih.gov/insidelifescience/genetics-numbers.html
細胞の内訳
メタボロームパスウェイ
遺伝子セット
ショウジョウバエ幼生
発現空間分解
+ 放っておくと均一になる
+ 無秩序になる
+ 変化は一方向的、不可逆的
+ 微視的状態 w について
\[ S = - k\sum_w p(w)\log{p(w)} \]
熱力学の第二法則
\[ H(X) = - \sum_w p(w) \log{p(w)} \] コイン投げのエントロピー \[ -(p\log{p} + (1-p)\log{(1-p)}) \]
治療法の成否のエントロピー。成功s回、失敗f回。推定成功率pは \[ f(p) = \frac{(s+f+1)!}{s!f!}p^s (1-p)^f \]
\[ -\int_{0}^1 f(p)\log{f(p)}dp \]
新治療法であって、成否情報がない場合(s=0,f=0)と、(s=10,f=8)の場合では、治療法について情報が増えているから、エントロピーが負になっている。
ライフ
生命の起源
系統樹
生殖可能性
生殖可能性
木村資生先生
分子時計
ほぼ中立説
遺伝的浮動
有限個体数集団なら浮動
アリルの拡散・アリル頻度の拡散的変化
拡散方程式
全部でN個のボールが入っている袋がある。白いボールがNw個、赤いボールがNr個(Nw + Nr = N)。今、この袋から、1つずつボールを取り出してはもとに戻すことをN回繰り返し、白赤のボールの個数Nw’,Nr’を記録する。記録したのち、白いボールNw’個、赤いぼるNr’個(Nw’+Nr’=N)を入れた新しい袋を作る。新しい袋に対して、同じことを実施する。それを繰り返す。
Nw=1,Nr=1の袋からスタートし、次の時点の袋がNw’=0,Nr’=2になる確率を求めよ
Nw=1,Nr=1の袋からスタートし、次の時点の袋に「多様性がなくなる(白のみ、もしくは赤のみ)」確率を求めよ
Nw=1,Nr=1のからスタートし、袋の更新を3回行った時点で「多様性がなくなる」確率を求めよ
Nw,Nrの袋から、Nw’,Nr’の袋に変化する確率を説明せよ
マンハッタン距離
距離
近隣結合法
距離行列
近隣結合法アルゴリズム
機械学習の中のクラスタリング
ハミング距離
AlingProblem
アラインメント
アミノ酸配列とDNA配列
バイオインフォマティクス・情報学の『最適化』一大分野
最適化
遺伝的アルゴリズム
ゲーマーによる問題解決
相同遺伝子
シンテニー
遺伝子重複
全ゲノム重複
二倍になる、三倍になる
全ゲノム重複
エクソンシャッフリング
DNA染色体
一塩基多型SNP
バリアントの構造分類
交叉
連鎖と組み換え
新規アリルと連鎖不平衡
連鎖不平衡の減衰
連鎖不平衡
アフリカから始まった
アフリカから始まった2
ユーラシア大陸民族の遺伝的遠近
疾患の原因・発生メカニズムの解明、診断をするのが、病理学。歴史的経緯から、解剖、組織・細胞の顕微鏡観察に重きを置く
疾患の分子遺伝学は、疾患の原因・発生メカニズムを遺伝子との関連で解明すること、また、遺伝子関連分子の解析を通じて診断すること
観察に重きを置くのは「フェノタイプ」に基づく病理解釈、遺伝子に重きを置くのは「ジェノタイプ」に基づく病理解釈
ジェノタイプとフェノタイプは確率的に繋がることから、疾患の分子遺伝学では、原因・発生メカニズムが「確率的・統計的」に説明される
疾患の診断は、フェノタイプを{0,1}={病気でない,病気である}に分ける
疾患を連続値で表すこともある。高血圧、高コレステロール血症
因果はそもそも難しい哲学的課題
因果
分野によって異なる捉え方をする(Wikipedia En)
分野による因果の違い
死亡診断書
疾患の遺伝性
X <- 0:2
Y <- X * 0.5
plot(X,Y,pch=20,cex=3,xlab="X: Genotype",ylab="Y: Probability to develpt disease")
x <- seq(from=-0.5,to=2.5,length=10000)
a <- 100
b <- 0.5
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l")
points(1,1,pch=20,cex=2,col=4)
a <- 10
b <- 1
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l",col=2)
points(1,1,pch=20,cex=2,col=4)
a <- 100
b <- 0.7
y <- exp((x-b)*a)/(exp((x-b)*a)+1)
points(x,y,type="l",col=3)
points(1,1,pch=20,cex=2,col=4)
中年以降に発症するモデル
死も、マルチヒットと考えれば、誰もが「発病~死」する
遺伝的バリアントの機能影響
DNA、転写、翻訳
コーディング遺伝子の構造
コーディング遺伝子への機能影響
コドン
アミノ酸置換の有り無し1
アミノ酸置換の有り無し2
アミノ酸の特性分類
コドン表とアミノ酸の性質
フレームシフトが起きると、バリアント箇所とそれより下流に多くのアミノ酸置換が起きる。終止コドンの移動も起きる
フレームシフト
+ 転写効率は転写調節領域への転写関連分子の結合によって変化する
+ 転写調節領域への分子の結合は調節領域配列依存的
+ 転写調節領域のバリアントは、転写活性に影響し、発現機能に量的に影響する
プロモータ領域
プロモータ変異の重要度予測
+ スプライシング調節配列がある
+ 特にエクソン隣接塩基
+ スプライシングに影響すると、スプライシングバリアントの発現パターンに影響する
+ スプライシング以外にも転写調節に影響することもある
イントロン変異
RNA遺伝子への機能影響
個体と生殖細胞系列・体細胞系列
de Novo変異
癌の発生
マルチヒット
体細胞モザイク